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摘 E: 


[ 目的 /意义 ] 随 着 科学 交流 体系 向 电子 媒介 迁移 ,传统 的 科学 论文 内 容 组 织 及 呈现 方式 带 来 了 诸多 弊端 。 科 学 论 
文 语义 增强 能 够 创新 科学 论文 内 容 的 组 织 与 呈现 方式 ,是 解决 这 些 问题 的 关键 ,得 到 了 来 自 科 研 机 构 与 学 术 出 版 
商 的 重视 ,形成 了 一 系列 理论 与 实践 成 果 。 对 这 些 成 果 进 行 梳理 、 归纳, 发 现 其 中 的 优势 与 不 足 , 能 够 为 后 续 推动 
科学 论文 语义 增强 的 进一步 发 展 起 到 指导 作用 。 [方法 /过程 ] 从 语义 增强 的 概念 入 手 ,着 重 分 析 科 学 论文 语义 增 
强 的 核心 目标 、 实 现 路 径 与 关键 问题 ,随后 ,梳理 对 科学 论文 中 正文 本 与 副 文 本 内 容 进行 语义 增强 的 理论 与 实践 
成 果 , 并 围绕 科学 论文 语义 增强 路 径 上 的 三 个 阶段 :语义 标注 、 语 义 组 织 与 可 视 化 呈现 进行 对 比分 析 。[ 结果 / 结 


见 。 
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论 ] 研究 进一步 归纳 总 结 现 阶段 科学 论文 语义 增强 的 特点 ,并 对 科学 论文 语义 增强 的 未 来 发 展 及 研究 提出 4 点 


攀 汪 形式 。 随 着 期 刊 数字 化 转型 ,电子 期 刊 已 经 成 为 
主演 。 在 论文 发 表 量 日 益 增 大 和 单 篇 文章 平均 阅读 时 
间 矣 少 的 情况 下 ,利用 新 兴 的 数字 技术 对 科学 论文 内 
容 章 织 与 呈现 方式 进行 创新 ,进而 提升 读者 的 阅读 与 
交流 效率 ,逐渐 引起 学 界 重视 "”。 借 助 本 体 .RDF X 
联 数据 等 语义 技术 ,在 准确 表征 科学 论文 内 容 语义 功 
能 的 基础 上 ,实现 细 粒 度 知 识 片段 的 可 视 化 关联 与 发 
布 ,不 仅 有 助 于 提升 读者 对 科学 论文 的 内 容 的 阅读 与 
理解 ,也 有 利于 计算 机 处 理 和 挖掘 学 术 文本 ,实现 基于 
数据 的 自动 知识 发 现 ”。 这 一 系列 技术 与 方法 开启 了 
科学 论文 的 语义 增强 (Semantic Enhancement 或 Enrich- 
ment) 之 路 。 

语义 增强 是 针对 内 容 进行 的 增值 性 编辑 加 工 活 
动 ,可 以 提高 数字 内 容 资产 的 价值 。 目 前 ,对 科学 论文 
进行 语义 增强 已 经 受到 学 界 与 业界 的 广泛 重视 。D. 
Shotton 等 兽 进 行 了 一 系列 语义 出 版 实验 上 ,探索 了 对 
论文 进行 语义 增强 的 方法 和 路 径 。 英 国 皇 家 化 学 学 


ZU 、 爱 思 唯 尔 公司 ! Nature 杂志 ,以 及 微软 .Google 
和 部 分 文化 遗产 机 构 也 开展 了 学 术 出 版 和 网 络 资源 的 
语义 增强 实验 。 借 助 语义 增强 ,创新 科学 论文 内 容 组 
织 方式 及 表现 形式 ,可 以 提高 科学 论文 资源 的 利用 效 
率 , 控 掘 科 学 论文 内 容 的 潜在 价值 ,实现 论文 内 容 与 知 
识 的 互联 互通 ,促进 科技 情报 工作 向 智慧 服务 转型 升 
级 。 

经 过 数 十 年 的 尝试 及 探索 ,针对 科学 论文 的 语义 
增强 取得 了 众多 研究 及 实践 成 果 , 对 现 有 研究 及 实践 
成 果 进 行 系统 梳理 ,不 仅 有 助 于 进一步 明确 科学 论文 
语义 增强 的 方式 方法 及 其 实现 路 径 , 更 有 助 于 明确 未 
来 语义 增强 研究 的 发 展 方向 .重点 及 趋势 ,将 会 对 科学 
论文 内 容 与 价值 的 再 利用 提供 方向 性 指引 。 

为 了 更 好 地 对 科学 论文 语义 增强 的 进展 进行 综述 
与 对 比 ,需要 进行 文献 检索 。 本 研究 首先 以 科学 论文 、 
语义 增强 为 关键 词 在 中 国 知 网 中 进行 检索 ,发 现 相关 
文献 较 少 ,随后 使 用 本 体 .语义 标注 .语义 组 织 等 为 关 
键 词 进行 检索 , 共 返 回 中 文 文献 记录 142 条 。 其 次 ,本 


人 研究 使 用 scientific papers, semantic enrichment, seman- 


tic enhancement, ontology, semantic annotation, semantic 


作者 简介 : 宋 宁 远 (ORCID :0000 -0001 -5601 —1487) ,博士 后 ; 裴 雷 (ORCID :0000 -0003 -4754 -4112 ) ,教授 ,博士 ,博士 生 导师 ,通讯 作者 ， 


E -mail ; plei@nju. edu. en; 王 春 迎 (ORCID : 0000 -0003 -4767 -4523 ) , 计 


ARE, TE 


收 稿 日 期 :2020 -01 -18 修 回 日 期 :2021 -01 -19 本 文 起 止 页 码 :82 -90 本文 责任 编辑 : 王 传 清 


82 


ChinaXiv 合 作 期 刊 


RFR, AE, EAM. 科学 论文 语义 增强 的 研究 进展 与 趋势 研判 []]. 图 书 情报 工作 ,2021 ,65(1) :82 -90. 


organization 等 关键 词 在 Web of Science 核心 数据 集中 
进行 检索 , 共 返 回 外 文 文献 记录 271 条 。 通 过 人 工 排 
除 相 关 性 较 弱 的 文献 , 共 获 取 322 篇 文献 ,作为 综述 及 
对 比分 析 的 样本 。 同 时 ,为 了 更 为 全 面 地 归纳 语义 增 
强 的 路 径 , 人 研究 还 特别 调查 了 施 普 林 格 . 自然 \ 威 利 、 
爱 思 唯 尔 等 大 型 出 版 机 构 的 语义 增强 项 目 ,一 起 作为 
综述 的 对 象 进行 分 析 。 


2 科学 论文 语义 增强 内 涵 、 需 求 及 实现 
TA 


2.1 ”科学 论文 语义 增强 概念 发 展 

语义 增强 是 伴随 计算 机 文本 处 理 技术 与 语义 网 的 
发 展 而 在 信息 资源 管理 与 科学 论文 出 版 领域 兴起 的 新 
概 公 , 旨 在 解决 现 有 的 电子 文档 语义 揭示 和 编码 表示 
厦大 的 问题 。 目 前 ,科学 论文 多 以 HTML 和 PDF 格式 
区 得 为 主 。 曾 于 文档 编码 方案 的 不 足 ,这 两 类 文档 普 
BH E TR LC th C RC AH d SERE T 
开 38 档 中 的 内 容 片 段 和 元 素 的 语义 特征 及 功能 。 因 
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让 者 也 难于 检索 和 利用 文档 的 细 粒 度 片 段 及 知识 
A 地 以 对 文档 进行 语义 增强 成 为 数据 资源 改造 升级 
和 和 湖 义 网 建设 不 可 回避 的 环节 。 

已 在 语义 增强 的 内 洱 理解 上 ,V. Damjanovic 认为 语 
义 增强 与 语义 检索 .语义 组 织 .语义 标注 及 语义 分 析 与 


WEMEL PIRAAT, Europeana 在 语义 增强 


Gs". SURF 基金 会 报告 指出 科学 论文 的 语义 增 
强 是 就 要 集成 研究 数据 、 辅 助 材料 .数据 记录 、 公 开发 
表 的 出 版 物 等 为 主要 手段 ,实现 对 传统 论文 内 容 的 延 


伸 与 扩展 '"" o M. Hoogerwerf 认为 科学 论文 语义 增强 
是 以 对 象 为 基础 的 信息 集成 ,对 象 泛 指 各 种 多 媒体 要 
素 和 文本 块 ,如 视频 .用户 评论 以 及 数据 库 等 … ,这 些 
对 象 之 间 存 在 显著 的 关联 。L. Breure 等 认为 科学 论文 
语义 增强 应 当 在 完备 的 语义 元 数据 体系 下 ,支持 线性 
和 非 线性 阅读 。 

综合 以 上 不 同 研究 针对 语义 增强 的 观点 、 实 施 阶段 
及 侧重 点 的 理解 ,本 文 认 为 针对 科学 论文 的 语义 增强 是 
以 提升 用 户 阅 读 效 率 与 知识 获取 效果 为 主要 目的 ,综合 
利用 多 种 语义 技术 与 可 视 化 技术 ,对 科学 论文 进行 一 系 
列 结构 化 .语义 化 .关联 化 可视化 处 理 。 语 义 增 强 的 主 
要 阶段 包括 语义 标注 .语义 关联 与 可 视 化 呈现 。 


c 


2.2 科学 论文 语义 增强 核心 目标 

对 科学 论文 进行 语义 增强 主要 是 为 了 充分 揭示 蕴 
含 在 科学 论文 内 部 的 潜在 知识 ,创新 科学 论文 内 容 组 织 
与 呈现 方式 ,提高 用 户 的 阅读 效率 与 阅读 效果 。 即 通过 
语义 增强 构建 具备 可 信 的 情境 化 的 .关联 的 .可 认 知 、 
可 预测 .可 利用 的 智慧 数据 集 ,实现 由 传统 文献 资源 到 
智慧 数据 的 转换 与 升级 ,以 充分 挖掘 蕴含 在 科学 论文 内 
容 中 的 潜在 知识 ,并 在 内 容 数 据 充 分 关联 的 基础 上 , 借 
助 可 视 化 技术 提高 用 户 获 取信 息 的 效率 与 效果 。 
围绕 核心 目标 ,科学 论文 语义 增强 具备 多 种 应 用 
场景 :知识 发 现 .语义 出 版 与 策略 型 阅读 。 在 知识 发 现 
领域 , 富 语义 的 科学 论文 内 容 数据 为 从 不 同 视 角 分 析 
科学 论文 提供 可 能 ,实现 知识 抽取 、 知 识 检索 、 知 识 发 
现 等 高 级 应 用 。 在 语义 出 版 领域 ,借助 语义 增强 ,可 以 
实现 出 版 对 象 由 篇 章 层 次 的 科学 论文 向 细 粒 度 陈 述 的 
过 渡 。 在 策略 型 阅读 领域 ,通过 不 同 粒度 科学 论文 内 
容 语 义 特征 的 揭示 ,定位 对 用 户 最 有 价值 的 信息 。 
2.3 科学 论文 语义 增强 实现 方式 与 关键 问题 
2.3.1 实现 方式 

科学 论文 是 一 种 复杂 的 知识 系统 ,由 大 量 的 正文 
本 与 副 文本 内 容 组 成 , 副 文本 内 容 主 要 包括 题 录 信 息 、 
摘要 、 引 用 及 参考 文献 信息 ;正文 本 内 容 是 指 蕴 含 了 大 
量 知识 的 科学 论文 内 容 。 其 中 , 副 文本 内 容 的 主要 作 
用 是 用 来 辅助 理解 正文 本 ,并 对 正文 本 进行 解释 说 明 。 
科学 论文 语义 增强 是 为 了 对 科学 论文 正文 本 与 副 文本 
内 容 进 行 语 义 表 征 , 创 新 科学 论文 内 容 组 织 及 呈现 方 
式 , 生 成 适用 于 提升 用 户 阅 读 效 果 的 增强 型 论文 。 
此 ,科学 论文 语义 增强 的 实现 路 径 一 般 包括 :语义 标 
UE .语义 组 织 与 内 容 可 视 化 ,如 图 1 所 示 : 


原始 
科学 论文 


副 文本 内 容 


语义 标注 
带 有 语义 标签 的 
科学 论文 数据 


面向 用 户 的 
增强 型 论文 


图 1 科学 论文 语义 增强 实现 方式 


(1) 语 义 标 注 。 语 义 标注 是 指 将 科学 论文 中 的 实 
体 与 本 体 、 主 题词 表 等 知识 组 织 工 具 中 的 概念 进行 关 
联 , 利 用 本 体 中 定义 的 概念 、 属 性 与 关系 揭示 科学 论文 
的 语义 特征 ,对 科学 论文 进行 语义 描述 ,并 生成 带 语 义 
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标签 的 语义 内 容 (semantic content) ,由 此 实现 机 器 可 
读 。 语 义 标注 是 实现 科学 论文 语义 增强 由 以 文献 为 中 
心 (document-centric ) 向 以 实体 为 中 心 (entity-centric ) 
转变 的 重要 过 程 '” 。 

(2) 语 义 组 织 。 语 义 组 织 是 在 对 科学 论文 进行 语 
义 标注 的 基础 上 ,实现 对 所 生成 的 带 有 语义 标签 的 语 
义 内 容 进行 关联 与 组 织 。 语 义 组 织 过 程 涉及 组 织 模型 
的 设计 .本 体 互 操作 ,本体 映 射 等 工作 ,融合 了 多 种 本 
体 及 元 数据 集 。 语 义 组 织 的 结果 是 生成 相互 关联 的 富 
语义 科学 论文 内 容 数 据 集 。 

(3) 内 容 可 视 化 。 内 容 可 视 化 是 综合 利用 多 种 计 
算 机 视觉 技术 ,对 科学 论文 内 容 数据 集 进行 图 形 化 ,多 
媒体 化 呈现 ,生成 适用 于 用 户 的 增强 型 论文 ,以 提高 内 
容 的 感知 能 力 ,进而 促进 用 户 的 知识 获取 效率 。 
xo 关键 问题 
在 “语义 标注 -语义 组 织 - 内容 可 视 化 "的 路 径 
站 为 了 更 好 地 实现 科学 论文 语义 增强 ,还 需要 着 力 解 
决 现下 关键 问题 。 

(1 ) 对 正文 本 内 容 信息 的 多 维 语义 描述 。 科 学 论 
文本 内 存在 大 量 非 结构 化 内 容 数据 ,对 这 些 数据 
侈 三 表征 可 揭示 科学 论文 内 容 的 组 织 模式 与 基本 架 
枯 能 够 实现 从 文献 层次 向 细 粒 度 内 容 层次 的 过 渡 ,是 
促 误 科学 论文 语义 增强 进一步 发 展 的 关键 。 

,全 (2 ) 多 源 数据 的 语义 关联 ` 组 织 与 发 布 。 科 学 论 
允 看 义 增强 需要 创新 科学 论文 组 织 模式 ,这 就 需要 对 
经 过 语义 标注 的 多 源 数据 ( 题 录 信息 、 引 用 信息 及 内 容 
数据 ) 进行 充分 地 关联 与 组 织 ,包括 设计 语义 组 织 模 
弄 C 葡 择 组 织 与 发 布 工具 等 。 其 中 的 关键 在 于 对 科学 
论文 的 逻辑 结构 .语义 关系 以 及 引用 关系 进行 准确 描 
述 与 规范 定义 ,进而 构建 适用 于 不 同 应 用 场景 的 组 织 
模型 。 

(3) 语 义 内 容 数据 的 可 视 化 呈现 。 内 容 数 据 的 可 
视 化 可 交互 呈现 是 提高 用 户 内 容 理解 效率 的 主要 方 
式 。 除 了 对 字 , 词 .概念 等 进行 可 视 化 呈现 之 外 ,尤其 
需要 考虑 如 何 利用 图 形 准确 表征 科学 论文 逻辑 结构 、 
论证 方式 ,特定 内 容 等 富 语义 内 容 数据 。 

3 ”科学 论文 语义 增强 路 径 分 析 
下 文 将 从 科学 论文 副 文本 及 正文 本 语义 增强 的 不 
同方 式 进行 综述 。 
3.1. 副 文本 内 容 语义 增强 
3.1.1 题 录 信 息 语义 关联 与 组 织 
科学 论文 的 题 录 信息 包括 文章 标题 ,作者 信息 、 摘 


要 ,关键 词 项目 与 基金 信息 等 ,其 信息 格式 明确 ,可 以 
通过 诸如 都 柏林 核心 元 数据 集 等 进行 描述 。 现 阶段 ， 
对 题 录 信 息 进行 语义 增强 的 主要 方式 是 通过 设计 书目 
本 体 实现 对 题 录 信息 的 语义 描述 ,并 通过 多 本 体 的 协 
同 使 用 ,实现 科学 家 论文、 会 议 .期 刊 等 多 源 信息 的 语 
义 关 联 。 

对 题 录 信息 的 语义 描述 以 书目 信息 本 体 (the Bib- 
liographic Ontology Specification, BIBO ) 与 FRBR 对 应 
BB 目 信 息 本 体 CFRBR-aligned Bibliographic Ontology , 
FaBiO) 为 代表 。BIBO 共 定 义 了 69 个 元 素 ,其 中 最 主 
要 的 是 对 文献 类 型 的 定义 。FaBiO 在 BIBO 的 基础 
上 ,融合 了 FRBR 框架 中 关于 作品 内容 表达 、 载 体 表 
现 和 单 件 的 分 类 ,同时 也 包括 了 对 创作 者 和 创作 团体 
描述 ,最 终 形成 了 整合 性 的 本 体 ”。 在 书目 本 体 对 单 
篇 文献 题 录 信 息 语义 描述 基础 上 ,VIVO ZR HR ET 
整合 了 BIBO,FOAF,DC 等 本 体 与 元 数据 集 ,添加 大 量 
语义 关系 ,建构 了 科学 家 的 信息 交流 语义 模型 。 

3.1.2 摘要 语义 增强 

摘要 是 对 科学 论文 主要 内 容 的 归纳 与 总 结 ,本 身 
也 蕴含 着 较为 丰富 的 内 容 信 息 , 因 此 针对 摘要 部 分 的 
增强 方式 也 较为 丰富 。 

喻 琪 琛 等 ”总结 了 采用 不 同 语义 增强 方式 的 摘 
要 ,结构 化 摘要 主要 通过 对 一 段 式 摘要 添加 相应 的 语 
XOU CHOSE LH B 方法、 结果、 讨论 等 ) ,以 明晰 摘要 
的 结构 .丰富 内 容 的 语义 ,便于 用 户 快速 掌握 论文 的 重 
点 内 容 ; 视 频 摘 要 与 图 形 摘要 利用 图 表 、 音 视频 与 文字 
结合 的 方式 ,对 摘要 内 容 进行 多 媒体 、 可 视 化 地 表达 ; 
结构 化 数字 摘要 主要 面向 摘要 内 容 的 机 器 可 理解 性 ， 
并 通过 实体 链接 等 实现 与 外 部 知识 库 的 关联 ;亮点 摘 
要 则 揭示 了 论文 中 最 为 重要 的 断言 与 陈述 ,具备 较 高 
的 情报 价值 。 

3.1.3 引用 功能 语义 描述 

引文 与 参考 文献 信息 通常 包括 被 引文 献 的 作者 、 
论文 标题 .期刊 .出 版 商 等 ,此 外 ,引文 信息 关联 了 被 引 
文献 与 施 引 文献 ,构成 了 引用 关系 ,内 涵 了 一 定 的 语义 
属性 ,诸如 引用 情感 .引用 情境 等 ,同样 是 语义 增强 需 
要 关注 的 重点 。 

现 阶段 ,对 引文 与 参考 文献 的 语义 增强 主要 通过 
构建 相关 本 体 , 具 有 代表 性 的 本 体 包括 :引文 类 型 本 体 
(Citation Typing Ontology, CiTO) 9 与 引用 数量 及 引用 
环境 本 体 ( Citation Countingand Context Characterization 
Ontology,C40) ”。CiTO 借助 RDF 表示 引用 关系 ,并 
对 其 语义 属性 进行 定义 。 在 CiTO 中 ,引文 语义 主要 由 


LL 


84 


人 
China vS 


期 刊 


RFR, AE, EAM. 科学 论文 语义 增强 的 研究 进展 与 趋势 研判 []]. 图 书 情报 工作 ,2021 ,65(1) :82 -90. 


修辞 关系 及 事实 关系 两 方面 进行 定义 ,修辞 关系 主要 
指 作者 的 引用 情感 ,包括 积极 ,中 性 、 消 极 三 类 ;事实 关 
系 则 体现 引文 的 作用 ,包括 引用 数据 ,引用 方法 等 。 
C40 主要 用 来 对 同一 参考 文献 在 不 同文 献 中 的 引用 位 
置 .引文 环境 进行 定义 ,同时 也 与 谷歌 学 术 等 相关 联 ， 
实现 对 总 体 引 用 次 数 的 描述 。 

CiTO .C40 等 均 具 有 较 强 的 扩展 性 ,可 以 同 FOAF 
本 体 .都 柏林 核心 元 数据 集 进行 关联 ,用 以 表示 引用 文 
献 的 作者 信息 。 同 时 也 可 以 与 篇 章 元 素 本 体 ( Dis- 
course Element Ontology, DEO) 、 文 献 组 件 本 体 (Docu- 
ment Component Ontology, DoCO) 等 出 版 物 内 容 本 体 进 
行 较 好 的 协同 ,用 以 实现 对 细 粒 度 引 用 情境 的 表征 。 
3.1.4. 副 文本 内 容 的 关联 与 发 布 
本 在 语义 组 织 与 关联 发 布 方面 , 副 文本 内 容 的 语义 
增强 也 较为 成 熟 ,形成 了 一 定数 量 与 规模 的 开放 数据 
集 每 知识 图 谱 。 
[一 在 数据 集 建设 与 发 布 方面 ,OpenCitations 数据 集 
最 世 代 表 性 , 它 是 通过 众 包 形式 建设 的 论文 结构 化 信 
息 癌 据 集 ,主要 包括 了 会 议论 文 . 图 书 音节、 期 刊 论文 


5 贡献 数据 进行 关联 开放 。 
知识 图 谱 是 较 多 出 版 及 科研 机 构 采 用 的 对 题 录 信 
息 正 参 考 文献 信息 进行 关联 与 发 布 的 形式 。 施 普 林 格 
然 在 2015 年 启动 了 SciGraph ”项 目 ,在 知识 组 织 
的 基础 上 ,通过 数据 融合 .知识 发 现 ,内 容 计算 来 实现 
多 源 异 构 数据 的 跨 模 态 语义 聚合 。 清 华 大 学 的 AMi- 
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ner 3 科学 知识 图 谱 通过 对 科技 文献 .专家 学 者 .学术 
活动 等 科技 大 数据 进行 分 析 挖 掘 ,提供 面向 科技 文献 、 
专家 学 者 和 学 术 活 动 的 语义 搜索 .语义 分 析 成 果 评 价 
等 知识 服务 。 微 软 学 术 图 谱 ( Microsoft Academic 
Graph, MAG) ”通过 智能 分 析 网 页 学 术 实体 及 它们 之 
间 的 关系 所 构建 的 异 构 知识 图 谱 。 此 外 , MAG 和 AMi- 
ner 合作 构建 了 开放 学 术 图 谱 (Open Academic Graph, 
OAG) ,实现 近 6 500 万 对 链接 关系 ,可 以 支撑 学 术 界 
对 学 者 合作 关系 ,学术 主题 挖掘 等 领域 的 研究 。 上 海 交 
通 大 学 发 布 的 学 术 知 识 图 谱 AceKG “| ,包含 超过 1 亿 个 
学 术 实 体 .22 亿 条 三 元 组 信息 ,为 每 个 实体 提供 了 丰富 
的 属性 信息 , 旨 在 支持 多 元 学 术 大 数据 挖掘 项 目 。 
3.2 正文 本 内 容 的 语义 增强 

正文 本 内 容 包 含有 以 字 、 词 .词组 为 主 的 概念 实 
体 ;以 句子 为 表现 形式 的 陈述 命题 ;由 若干 语句 构成 
的 内 容 组 件 (Component) ;以 及 借 由 组 件 之 间 关 系 ( Re- 


lationship) 而 形成 的 逻辑 结构 。 当 前 研究 针对 不 同 层 
次 .不同 粒度 的 内 容 进 行 了 语义 增强 理论 与 实践 探索 。 
3.2.1 科学 论文 概念 实体 的 抽取 与 表示 

在 科学 论文 概念 实体 抽取 方面 ,综合 运用 领域 本 
体 以 及 包括 命名 实体 识别 在 内 的 自然 语言 处 理 技术 ， 
实现 了 对 概念 实体 的 抽取 与 语义 表示 。 诸 如 微观 概念 
地 图 的 挖 气 与 构建 ”学术 概念 属性 的 抽取 、 关 键 
术语 抽取 "等 。 在 概念 实体 的 可 视 化 表示 方面 , 现 有 
研究 与 实践 主要 通过 标签 云 .标签 树 等 形式 呈现 科学 
论文 的 核心 概念 。 
3.2.2 ”科学 论文 陈述 的 描述 与 关联 发 布 

科学 陈述 是 组 成 科学 论文 内 容 的 基础 ,也 是 概念 
实体 存在 状态 及 属性 的 直接 表现 。 当 前 最 具有 代表 性 
的 陈述 表示 模型 即 为 纳米 出 版 物 (Nanopublication ) 。 

纳米 出 版 物 是 以 “科学 陈述 "为 单位 的 “具有 科学 
意义 .机 器 可 读 的 .最 小 的 可 出 版 单元 ”模型 ”。 该 模 
型 包含 了 核心 科学 陈述 和 相关 语 境 ,方便 科学 声明 层 
面 的 知识 处 理工 作 ,诸如 科学 声明 的 整合 查询、 推理 
等 。 概 括 来 说 ,纳米 出 版 物 主 要 由 内 容 性 和 功能 性 组 
成 部 分 构成 。 其 中 ,内容 性 组 成 部 分 以 概念 三 元 组 为 
基础 ,将 每 一 个 具有 实际 意义 的 三 元 组 视 为 一 条 科学 
陈述 。 科 学 陈述 与 其 出 处 信息 构成 了 一 条 最 基本 的 纳 
米 出 版 物 。 除 此 之 外 ,出 版 物 信息 (包括 归属 .整合 时 
间 .引用 情况 等 ) 支持 性 信息 等 则 对 纳米 出 版 物 起 到 
了 附加 解释 作用 。 目 前 ,纳米 出 版 物 模型 在 生物 医学 
及 数字 人 文 项 目 中 得 到 了 较为 广泛 的 运用 ,形成 了 一 
定 规模 的 纳米 出 版 物 数据 集 。 
3.2.3 科学 论文 内 容 组 件 及 逻辑 结构 语义 表征 

除了 对 以 语句 为 基本 单位 的 陈述 进行 语义 描述 与 
增强 之 外 ,也 有 研究 从 语 篇 分 析 的 角度 人 手 ,提出 了 科 
学 论文 内 容 组 件 的 概念 。 按 照 解读 视角 的 不 同 , 主 要 
集中 在 以 下 4 个 方向 : 

(1) 修辞 与 功能 组 件 。 围 绕 科学 调查 过 程 ,在 科 
学 实验 本 体 (EXPO) 及 CISP 的 基础 上 , M. Liakata 
提出 了 CoreSC ( Core Scientific Concept) 模型 2 , 科学 
文本 中 的 陈述 按照 科学 实验 的 不 同 过 程 划分 为 :假设 、 
动机 、 目 的、 目标 .背景 方法 实验、 模型 ,观察 结果 和 
结论 。 该 模型 详细 定义 了 科学 实验 的 过 程 ,但 是 对 于 
大 量 论述 性 文本 的 语义 表征 能 力 不 足 。 

A. De Waard 认为 科学 论文 是 围绕 具体 科学 目标 
而 进行 的 知识 建构 ,其 在 2006 年 提出 ABCDE 模 
型 ” 。 该 模型 从 标注 .背景 贡献 .讨论 及 实体 等 5 个 
部 分 对 科学 论文 进行 描述 ,不 仅 描述 了 文献 内 容 ( 背 
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景 .贡献 .讨论 ) ,也 定义 了 文献 元 数据 (标注 ) 及 实体 
层面 的 信息 (实体 ) ,但 模型 粒度 较 粗 ,表达 能 力 有 限 。 
通过 聚焦 文献 内 容 组 成 模块 ,其 又 提出 了 框架 篇 章 块 
(Discourse Segment) 模 型 ,更 细 粒 度 地 揭示 了 科学 论文 
中 的 知识 单元 ,该 模型 包括 :事实 假设. 目标, 方法, 结 
果 影 响 和 问题 等 7 个 类 别 ™。 

L. Zhang 针对 用 户 在 科学 论文 阅读 过 程 中 产生 的 
功能 性 需求 ,定义 了 学 习 背 景 知识 .参考 事实 ,参考 论 
点 .参考 方法 、 跟 进 前 沿 研究 等 6 种 科学 论文 语 境 下 的 
信息 使 用 任务 。 此 外 ,L， Zhang 等 结合 研究 空间 理论 、 
林 裁 分 析 等 , 提出 了 包含 41 个 功能 单元 的 概念 模 
ap. 

(2) 论 证 结构 。 对 论证 结构 的 语义 描述 一 般 包括 
对 论证 组 件 与 论证 关系 的 定义 。 在 论证 组 件 方面 ,S. 
1 提出 了 论证 块 (Argumentative Zoning, AZ ) 模 
。 论 证 块 模型 将 科学 文本 中 的 不 同 的 内 容 组 件 
宇文 为 目标 对比 .基础 ,文本 背景 等 几 个 类 别 。 随 
局 53. Teufel 对 这 一 理论 进行 了 拓展 ,将 引用 功能 及 作 
着 的 情 感 倾向 与 文本 修辞 功能 进行 结合 ,提出 了 更 细 
ERR RE A Argument Zoning n 。 该 框架 定义 了 14 
入 胡同 的 修辞 组 件 ,新 增加 类 型 包括 对 比 (CoDI) 、 指 
旦 矶 陷 、 观 点 相 蛋 支持、 使 用 等 ,尤其 注重 对 不 同 观点 
的 比较 ,更 加 适合 科学 论文 的 特点 。N. L. Green DUE 
物 己 学 领域 的 科学 论文 为 例 ,研究 了 科学 论文 结构 的 
RRA ,提出 了 包括 假设 结论 .背景 知识 等 组 成 
的 座 证 框架 用 以 表征 科学 论文 的 论证 结构 5 ,并 列举 
了 使 用 该 框架 对 论证 结构 进行 表示 的 若干 实例 7 
这 晤 研究 都 较为 清晰 地 定义 了 论证 组 件 及 其 语义 特 
征 ,但 轿 于 论证 关系 定义 的 欠缺 ,在 表征 科学 论文 论证 
结构 方面 还 存在 不 足 。 

在 论证 关系 方面 ,较为 成 熟 的 项 目 是 学 术 本 体 项 
H (Scholarly Ontologies Project) ^" 。 在 该 项 目 中 ,S. J. 
Buckingham Shum 等 提出 将 科学 论文 分 解 成 基本 的 篇 
章 知识 单元 并 基于 认 知 关联 关系 等 理论 ,实现 了 对 论 
证 关系 的 定义 ,分 别 包括 :因果 关系 .问题 相关 关系 、 相 
似 性 关系 、 通 用 关系 支持 /挑战 关系 .分 类 关系 。 每 一 
类 关系 都 包含 了 显 式 的 极 性 (正面 或 负面 ) ,以 及 具体 
的 权重 。 其 研究 结果 催生 了 一 系列 对 论证 关系 进行 标 
注 和 可 视 化 的 工具 。 

(3) 情 境 信息 语义 描述 。 情 境 信 息 揭示 了 科学 论 
文 内 容 组 件 存在 状态 。P，Thompson 针对 生物 医学 领 
域 科学 论文 情境 信息 设计 了 EventMine-MK 标 引 框架 ， 
使 用 知识 类 型 .可 信 度 等 级 极 性 ,来源 程度 以 及 不 同 


属性 之 间 聚 合 而 成 的 高 维 知识 类 型 ,对 科学 论文 情境 
信息 进行 了 表示 “ 。 此 外 ,P. Thompson 等 还 设计 了 针 
对 新 闻 事 件 的 情境 信息 标注 框架 ,该 框架 在 级 性 、 时 
间 、 体 裁 的 基础 上 ,增加 了 消息 来 源 、 语 态 、 主 观 性 等 不 
同 维度 “ 。A. De Waard 等 ”提出 了 情境 信息 表示 
模型 ,包括 确定 性 等 级 基础 和 来 源 等 三 个 维度 。 其 
中 ,确定 性 等 级 维度 用 来 表示 陈述 的 可 信 度 情况 ;基础 
维度 用 来 表示 陈述 命题 的 存在 状态 ;来 源 维度 表征 了 
陈述 的 出 处 信息 。Claim Framework ^: 由 C. Blake 提 
出 ,该 框架 以 断言 为 主要 描述 对 象 ,认为 断言 的 组 成 要 
素 除 主体 、 客 体 等 知识 实体 之 外 ,还 包括 改变 .方向 \ 修 
饰 、 基 础 等 情态 要 素 。 

以 上 三 种 表示 模型 给 出 了 情境 信息 的 不 同 定义 ， 
EventMine-MK 的 使 用 对 象 为 事件 型 知识 ,有 利于 事件 
知识 表示 与 挖掘 ;A. De Waard 的 模型 更 注重 对 陈述 的 
多 维 表征 ;C. Blake 的 框架 建构 了 内 容 组 件 与 概念 实体 
间 的 存在 关系 ,更 侧重 对 实体 之 间 逻 辑 关系 的 表征 。 

(4) 科 学 论文 内 容 本 体 。 当 前 研究 使 用 本 体 实 现 
了 对 内 容 组 件 组件 间 关 系 进行 规范 定义 ,设计 并 开发 
了 大 量 科 学 论文 内 容 本 体 。 

粗 粒 度 的 修辞 本 体 包括 SALT f SE BA p 
( Ontologyof Rhetorical Block, ORB) "等 ,宏观 地 定义 
了 科学 论文 内 容 的 修辞 结构 。 细 粒度 的 修辞 本 体 以 篇 
章 元 素 本 体 ”文献 组 件 本 体 ” 等 为 代表 ,细致 地 定 
义 了 科学 论文 的 内 容 组 件 。 除 了 修辞 组 件 本 体 ,Peroni 
等 提出 了 论证 模型 本 体 (Argument Model Ontology, 
AMO) 7 ,定义 了 包括 断言 .证 据 (evidence) 支撑 、 反 
Jt RETE RESTE 6 种 论证 要 素 , 以 及 文 持 、 质 疑 等 论 
证 关系 。 

随 着 科学 论文 内 容 语 义 增强 研究 的 不 断 深 入 , 科 
学 论文 内 容 本 体 的 开发 呈现 出 以 下 两 种 趋势 :一 是 在 
科学 论文 内 容 语 义 建 模 的 基础 上 ,力求 开发 表达 能 
更 强 、 更 为 全 面 的 本 体 。 王晓光 等 在 功能 单元 理论 的 
基础 上 设计 并 开发 了 一 种 融合 情境 信息 的 功能 单元 本 
体 (Functional Units Ontology, FUO) ,并 进行 了 初步 的 
深度 标注 实验 。 王 晓 光 等 也 在 综述 论证 本 体 的 基 
础 上 ,参考 DEO ,DoCO 等 本 体 进一步 完善 了 对 科学 证 
据 的 定义 ,设计 了 科学 论文 论证 本 体 SA0'” 。 另 一 方 
面 , 还 有 些 本 体 更 加 聚焦 科学 论文 内 容 的 特定 部 分 ,如 
面向 科学 结论 面向 科学 论文 事件 ”等 ,力求 对 
特定 知识 进行 更 为 完备 的 定义 。 

3.2.4 科学 论文 细 粒 度 内 容 语义 组 织 模型 
科学 论文 细 粒 度 内 容 语义 组 织 模型 代表 了 对 非 结 
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， 王 春 迎 . 科学 论文 语义 增强 的 研究 进展 与 趋势 研判 [J]. 图 书 情报 工作 ,2021 ,65(1) :82 -90. 


构 化 的 科学 论文 内 容 数 据 进 行 语义 增强 的 新 方向 ,是 
在 将 非 结 构 化 信息 进行 结构 化 .语义 化 之 后 ,进行 关联 
重组 的 结构 性 增强 。 

在 众多 内 容 组 织 模型 中 ,最 具 代表 性 的 是 T. Clark 
等 设计 的 微型 出 版 物 模型 (Micropublication ) ^" ,该 模 
型 区 分 了 陈述 .断言 数据 方法 等 具备 不 同 语义 及 功 
能 的 语句 ,并 对 语句 间 的 论证 关系 进行 了 明晰 。 与 之 
类 似 的 还 有 C. Billing 等 ”提出 的 语义 证 据 (Semantic 
Evidence, SEE) 的 表示 方法 及 模型 。SEE 也 提供 了 一 
种 以 证 据 为 线索 的 知识 聚合 方式 ,将 特定 主题 的 科学 
论断 ,证 据 与 相关 材料 .方法 ,假设 ,推理 及 其 他 外 部 知 
识 库 相 连接 ,进而 形成 一 种 相互 连接 且 机 器 可 读 的 表 
达 。 另 有 一 些 模 型 ,以 研究 对 象 套件 模型 ( Research 
Object Suit) ”为 代表 , 旨 在 提供 一 种 结构 化 的 容器 ， 
将 碗 完 数据 与 对 应 的 研究 方法 以 及 相关 的 元 数据 封装 


起 来 ,形成 一 个 围绕 特定 主题 的 套件 。 

从 本 质 上 看 ,科学 论文 内 容 语义 组 织 模型 提供 了 
一 种 新 的 文档 表示 方法 。 微 型 出 版 物 模型 和 语义 证 据 
模型 均 把 科学 文献 拆 分 成 了 各 种 论证 单元 ,随后 又 根 
据 论 证 结构 进行 了 重组 , 既 表 征 了 科学 论文 内 容 的 逻 
辑 结 构 ,也 实现 了 科学 论文 内 容 组 件 的 关联 。 研 究 对 
象 套件 模型 则 针对 研究 型 论文 中 所 包含 的 研究 方法 、 
实验 过 程 与 科学 数据 进行 了 关联 , 既 表 征 了 科学 实验 
的 过 程 ,也 为 科学 数据 提供 了 较为 清晰 的 属性 及 背景 
eH 


4 ”科学 论文 语义 增强 对 比分 析 


综合 以 上 对 科学 论文 不 同 组 成 部 分 语义 增强 理论 
探索 与 实践 的 介绍 ,本 文 对 不 同 内 容 数 据 的 语义 增强 
路 径 及 实施 情况 进行 了 综合 分 析 , 如 表 1 所 示 : 


er R1 科学 论文 语义 增强 路 径 对 比分 析 

p 语义 增强 路 径 

”科学 论文 组 成 部 分 = - - 

= 语义 标注 语义 组 织 可 视 化 呈现 
dp 容 题 录 信 息 BIBO ,FaBIO VIVO ,Scigraph MAG / 

摘要 结构 化 摘要 .SDA ,亮点 摘要 SDA 富 媒体 摘要 ( 图像 摘要 ,视频 摘要 ) 
e» 引用 与 参考 文献 CiTO .C40 Scigraph MAG ,OpenCitatio , AMiner / 
Qirra 概念 实体 实体 抽取 / 标签 云 .标签 树 
| 
m 陈述 纳米 出 版 物 纳米 出 版 物 / 

mu 内 容 组 件 ABCDE, Discourse Segment, ”微型 出 版 物 .语义 证 据 、 研 究 对 象 套件 / 

P CISP, EXPO, AMO, DoCO, 
— DEO, SALT, EventMine-MK 

uw ' S a 
>< Claim Framework 

gy 

(C 语义 关系 AMO ScholOnto SALT 微型 出 版 物语 义 证 据 模型 / 


= 


OEHR 1 可 知 ,对 副 文 本 内 容 进行 语义 增强 的 实践 
较 鲍 丰富。 针对 引用 及 参考 文献 信息 ,已 有 研究 实现 
了 对 引用 功能 .引用 情况 .引用 情境 等 的 语义 描述 ,并 
构建 了 相应 的 数据 集 。 同 时 ,借助 本 体 及 知识 图 谱 , 题 
录 信 息 与 参考 文献 信息 得 以 关联 并 发 布 。 

对 正文 本 内 容 的 语义 增强 以 理论 探索 为 主 。 在 概 
念 实体 抽取 与 表示 方面 ,借助 领域 本 体 对 概念 实体 进 
行 抽取 与 表示 取得 了 十 分 突出 的 进展 。 在 陈述 语义 描 
述 与 关联 发 布 方面 ,纳米 出 版 物 数据 集 的 建设 也 在 稳 
步 推 进 。 对 于 内 容 组 件 .逻辑 结构 的 语义 化 表示 与 关 


组 织 模型 与 知识 图 谱 。 而 在 内 容 可 视 化 呈现 方面 , 现 
有 研究 仍 有 明显 不 足 。 


5 科学 论文 语义 增强 研究 的 趋势 研判 


围绕 科学 论文 语义 增强 的 核心 目标 与 关键 问题 ， 
本 文 认 为 未 来 针对 科学 论文 的 语义 增强 工作 及 探索 可 
以 围绕 以 下 几 个 方面 展开 : 

(1) 多 维 、 多 源 数 据 的 语义 整合 与 互 操作 。 通 过 
不 同 知 识 图 谱 的 设计 、 开 发 与 应 用 , 现 有 研究 对 科学 论 
文 题 录 信息 .引用 及 参考 文献 信息 进行 了 语义 增强 ,但 


联 , 还 处 于 理论 探索 阶段 ,虽然 有 相应 的 本 体 与 组 织 模 
型 问世 ,但 关于 语义 标注 过 程 中 的 技术 问题 ,还 未 能 建 
构 大 规模 的 数据 集 。 

总 体 来 看 ,科学 论文 语义 增强 的 研究 与 实践 成 果 
主要 集中 在 语义 描述 与 标注 阶段 ,本 体 在 语义 增强 过 
程 中 的 重要 性 逐步 凸显 ,同时 也 产生 了 诸多 语义 关联 


这 类 知识 图 谱 较 少 涉及 对 正文 本 内 容 数 据 ( 陈述 、 内 容 
组 件 及 逻辑 结构 ) 的 关联 ,如 何在 语义 表征 科学 论文 内 
容 的 基础 上 ,填补 现 有 科学 论文 知识 图 谱 的 空白 ,实现 
知识 图 谱 与 内 容 语义 组 织 模型 的 关联 ,将 是 促进 科学 
论文 语义 增强 的 基础 。 

(2) 富 语义 内 容 数据 的 可 视 化 。 利 用 丰富 的 可 视 
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化 手段 ,提高 科学 论文 内 容 的 可 感知 性 是 科学 论文 语 
义 增强 的 关键 。 目 前 对 科学 论文 进行 可 视 化 的 研究 还 
十 分 稀少 ,可 视 化 方式 多 以 标签 云 .标签 树 等 为 主 ,可 
视 化 对 象 多 以 字 词 为 基础 。 如 何 完整 高效 ,准确 地 可 
视 化 呈现 诸如 论证 结构 .关键 信息 等 科学 论文 语义 内 
容 数据 ,还 需要 从 理论 与 实践 两 个 方面 共同 入手 ,进行 
更 为 深入 地 探索 。 

(3) 针 对 科学 论文 领域 特征 的 语义 增强 。 科 学 论 
文 的 复杂 性 一 方面 在 于 其 蕴含 了 大 量 知识 , 男 一 方面 
在 于 科学 论文 还 受到 了 领域 研究 范式 ,研究 方法 及 写 
作 规范 的 影响 。 现 有 研究 提出 的 内 容 本 体 、 内 容 组 织 
方式 多 面向 生物 医学 领域 ,如 何 将 现 有 研究 成 果 应 用 
到 人 文 . 社 科 或 其 他 自然 科学 领域 ,还 需要 分 领域 建设 
表达 能 力 更 强 ,更 为 全 面 的 内 容 语义 表示 模型 ,制定 符 
合 领域 特征 的 科学 论文 语义 增强 发 展 方式 。 
(4) 面 向 科学 论文 阅读 行为 的 语义 增强 。 科 学 论 
区 语义 增强 的 最 终 目标 是 为 了 帮助 科研 工作 者 快速 获 
取 移 文中 蕴含 的 大 量 知识 ,因此 有 必要 分 领域 对 用 户 
的 加 读 任务 ,阅读 策略 ,阅读 对 象 及 阅读 模式 进行 深入 
研 问 。 现 阶段 ,有 关 语 义 增强 的 基础 理论 研究 与 实践 
从 过 多 以 对 科学 论文 文本 特征 分 析 为 起 始点 。 无 论 是 
证 又 描 述 还 是 语义 组 织 , 均 是 建立 在 文本 分 析 与 逻辑 
祭 沛 的 基础 上 ,未 能 充分 考虑 用 户 的 阅读 特点 与 使 用 
方式 .因此 ,未 来 对 于 科学 论文 语义 增强 的 研究 还 需 
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-@ 本 文 从 语义 增强 概念 人 手 , 进 一 步 规范 了 科学 论 
文 语义 增强 的 概念 ,分 析 了 科学 论文 语义 增强 的 核心 
目标 ,实施 路 径 与 关键 问题 ,同时 在 对 现 有 理论 与 实 距 
成 果 进 行 梳理 的 基础 上 进行 了 对 比分 析 , 总 结 了 科学 
论文 语义 增强 的 特点 与 不 足 之 处 。 总 体 来 说 ,科学 论 
文 语义 增强 按 目 标的 不 同 可 以 分 为 两 类 :一 类 是 面向 
对 科学 论文 内 容 信息 的 语义 增强 ,包括 论文 基本 信息 
及 内 容 的 规范 化 描述 .论文 内 容 实 体 语义 标注 ,论文 内 
容 关联 与 集成 等 ; 另 一 类 则 针对 科学 论文 内 容 可 视 化 
呈现 , 即 借助 多 媒体 实现 论文 内 容 可 感知 性 的 提升 。 
未 来 关于 科学 论文 语义 增强 的 研究 方面 要 结合 
领域 特征 ,开发 适用 于 不 同 领域 的 科学 论文 内 容 本 体 ， 
创新 科学 论文 内 容 多 维 组 织 方式 ;同时 也 要 结合 用 户 
科学 论文 阅读 任务 .阅读 策略 .阅读 侧重 点 与 阅读 行为 
模式 ,综合 利用 多 种 可 视 化 方式 ,开发 适用 于 用 户 的 策 
略 型 阅读 辅助 工具 及 阅读 系统 ,实现 面向 用 户 的 科学 


论文 语义 增强 。 
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The Survey and Tendency of Semantic Enrichment for Scientific Papers 


Song Ningyuan' Pei Lei! Wang Chunying’ 
' School of Information Management, Nanjing University, Nanjing 210023 
“School of Information Management, Zhengzhou University, Zhengzhou 450001 
„Æ Abstract; | Purpose/significance | With the transfer of scientific communication system to electronic media, the 
Gohtent organization and presentation of traditional scientific papers have brought many disadvantages. Semantic en- 
hancement of scientific papers can innovate the organization and presentation of scientific papers, which is the key to 
solve these problems. It has been paid attention by scientific research institutions and academic publishers and 
formed a series of theoretical and practical achievements. Combing and summing up these achievements and finding 
the advantages and disadvantages can play a guiding role in promoting the further development of semantic enhance- 
ment of scientific papers. | Method/process | Starting from the concept of semantic enhancement , this paper focused 
on the analysis of the core objectives, implementation paths and key issues of semantic enhancement in scientific pa- 
pers. Then, the paper combed the theoretical and practical results of semantic enhancement of structured and un- 
structured data in scientific papers and made a comparative analysis by using three stages in the path of semantic en- 
hancement of scientific papers; semantic annotation, semantic organization and visual presentation. | Result/conclu- 
sion | This research summarizes the characteristics of semantic enhancement of scientific papers at this stage, pro- 
vides the four suggestions for the future development and research of semantic enhancement in scientific papers. 
semantic enrichment semantic annotation semantic organization visualization 
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